home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000015_owner-urn-ietf _Mon Nov 4 05:47:58 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  5KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id FAA27337 for urn-ietf-out; Mon, 4 Nov 1996 05:47:58 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id FAA27325 for <urn-ietf@services.bunyip.com>; Mon, 4 Nov 1996 05:47:25 -0500
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA21177  (mail destined for urn-ietf@services.bunyip.com); Mon, 4 Nov 96 05:47:22 -0500
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <00897-0@josef.ifi.unizh.ch>; Mon, 4 Nov 1996 11:46:39 +0100
  7. Subject: Re: [URN] New syntax draft
  8. To: jon@net.lut.ac.uk
  9. Date: Mon, 4 Nov 1996 11:46:38 +0100 (MET)
  10. Cc: jayhawk@ds.internic.net, urn-ietf@bunyip.com
  11. In-Reply-To: <Pine.SUN.3.95.961101133545.17572f-100000@weeble.lut.ac.uk> from "Jon Knight" at Nov 1, 96 01:44:31 pm
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 3326
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..248:04.10.96.10.46.47"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. Jon Knight wrote:
  24.  
  25. >On Fri, 1 Nov 1996, Martin J Duerst wrote:
  26. >> When going from ASCII to UTF-8, there are some new problems.
  27. >> For ASCII, the general assumption is that only those charcters
  28. >> that need escaping are actually escaped, and therefore that
  29. >> escaping, e.g. for "/" or whatever, shouldn't be undone.
  30. >> The above is not exactly true, indeed the "~" is often escaped
  31. >> as %7E in Europe because it is difficult to type on European
  32. >> keyboards, but still I assume there are a lot of tools around
  33. >> working on URLs in general that work along the rule "if ASCII
  34. >> is escaped, don't remove the escaping, because this is a special
  35. >> character.
  36. >
  37. >Hmm, I don't really understand this; URL percent escaping is just away of
  38. >dealing with characters that you can't represent directly, either because
  39. >they're in the reserved set of characters or because they're not easy to
  40. >type (the French/German/Nordic/Icelandic letters in ISO-8859-1 for
  41. >example).  If you're unescaping things, one would assume that you've
  42. >already parsed any reserved characters to extract any structuring
  43. >information that the provide.
  44.  
  45. Yes. But now immagine that some of these French/German/Nordic/Icelandic
  46. letters, or whatever else, is reserved, but that somebody was not able
  47. to represent them directly, and used %-escaping. What are you going to do?
  48.  
  49. Also, according to the syntax draft, intermediate software migth
  50. %-escape some UTF-8 part to pass the thing through a 7-bit channel.
  51. It will %-escape reserved and unreserved characters all alike.
  52.  
  53.  
  54. >Percent escaped characters aren't just
  55. >restricted to the reserved characters that need to be escaped; you can
  56. >percent escape your entire URL's path if you like.  Any software that just
  57. >expects reserved characters to be percent escaped is going out of its way
  58. >to be braindead IMHO.
  59.  
  60. The problem is with software that expects reserved charcters NOT
  61. to be escaped.
  62.  
  63.  
  64. >And anyway, URLs don't use UTF-8 so this isn't going to be a problem
  65. >(we're talking URNs here right?).
  66.  
  67. I just explained the problems using URL examples. Just because
  68. they problems might not apply to URLs, that still does not help
  69. for URNs.
  70.  
  71. And URLs don't use UTF-8 YET. They don't even use ASCII, in the sense
  72. we are proposing to use UTF-8 here. They just encode octets.
  73. For the benefit of us all, fortunately, there are some coincidences
  74. in most of the URL schemes, so that it actually looks as if URLs
  75. would use ASCII.
  76. If you currently see an URL with octets in the 8-bit range, there
  77. is not much of a chance to guess what characters it could represent.
  78. But steadily, the number of cases where there are chances that
  79. you get the characters if you interpret the octests as UTF-8
  80. will be increasing.
  81. One example is ftp: The ftp-wg agreed on going into the direction
  82. of using UTF-8 as the common character encoding. According to
  83. the URL spec, that's up to ftp to decide. Because it is a very
  84. reasonable decision, it will hopefully be followed by others.
  85.  
  86. The remaining formal difference between URL syntax and URN
  87. syntaxt would then be that the later officially allows the
  88. URN to be represented with characters/glyphs outside the
  89. ASCII range (on things such as cardboard boxes), but the
  90. former officially disallows such a behaviour. In practice,
  91. I guess this difference will vanish rather quickly.
  92.  
  93. Regards,    Martin.